Arsitektur Tersembunyi dari Bahasa
Model Bahasa Besar (LLM) tidak 'membaca' teks seperti manusia. Sementara kita melihat huruf dan kata-kata, model memproses informasi dalam bagian numerik yang disebut Token. Memahami abstraksi ini adalah langkah pertama menuju menguasai rekayasa prompt dan desain sistem.
Uji Permen
Mengapa LLM kesulitan membalikkan huruf-huruf dalam kata "lollipop" tetapi berhasil seketika saat diminta membalikkan "l-o-l-l-i-p-o-p"?
- Masalahnya:Dalam kata standar, model hanya melihat satu token yang mewakili seluruh kata. Model tidak memiliki peta jelas tentang huruf-huruf individu di dalam token tersebut.
- Solusinya:Dengan memisahkan kata menggunakan tanda hubung, Anda memaksa model untuk mengubah setiap huruf menjadi token terpisah, memberikan 'penglihatan' yang sangat detail yang diperlukan untuk menyelesaikan tugas ini.
Prinsip Utama
- Rasio Token:Sebagai aturan umum, 1 token kira-kira setara dengan 4 karakter dalam bahasa Inggris, atau sekitar 0,75 dari sebuah kata.
- Jendela Konteks:Model memiliki ukuran 'memori' tetap (misalnya, 4096 token). Batas ini mencakup instruksi Anda dan jawaban dari model.
Dasar vs. Disesuaikan dengan Instruksi
- LLM Dasar:Memperkirakan kata berikutnya yang paling mungkin berdasarkan dataset besar (contoh: "Apa ibukota Prancis?" bisa diikuti oleh "Apa ibukota Jerman?").
- LLM yang Disesuaikan dengan Instruksi:Disempurnakan melalui Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) agar dapat mengikuti perintah tertentu dan bertindak sebagai asisten.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?
Question 2
Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?
Challenge: Token Estimation
Apply the token ratio rule to a real-world scenario.
You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.
Your API provider charges $0.002 per 1,000 tokens.
Your API provider charges $0.002 per 1,000 tokens.
Step 1
Estimate the number of tokens for a single daily report.
Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$
Step 2
Calculate the estimated cost to process one daily report.
Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$